Zitat Zitat von DFYX Beitrag anzeigen
Hehe, sieht interessant aus. Allerdings solltest du vielleicht einen Filter einbauen, um Pronomen, Artikel, Hilfsverben und andere häufige Wörter auszufiltern. Das macht die Statistik um einiges repräsentativer.
So was nennt sich "Stopwortliste" und ist unerläßlich. Ich kann ja mal morgen bei uns im Projekt fragen, welche guten es für die deutsche Sprache allgemein so gibt.

Hmm, man könnte vielleicht die Verarbeitungsgeschwindigkeit optimieren, indem man vor der Tokenisierung einfach mal <.*?> rausschneidet, bzw. durch eine Tokengrenze ersetzt und das Zwischenergebnis zwischenspeichert.